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Архіватори знань про одновимірні 
та двовимірні об'єкти діагностування 


У даній статті запропоновані методи стиснення одновимірних (текстових) та двовимірних (графічних) 
даних на основі базису Галуа, які дозволяють в деякій мірі зменшити об'єм інформації, що 
зберігається, обробляється або передається, мінімізувати втрату інформації при відновленні. 


Архіватори - це програми для створення архівів. Архіви призначені для збе- 
реження даних у зручному компактному виді. У якості даних звичайно виступають 
файли 1 папки. Як правило, дані попередньо піддаються процедурі стиснення або упаку- 
вання. Тому майже кожен архіватор одночасно є програмою для стиснення даних. З ін- 
шого боку, будь-яка програма для стиснення даних може розглядатися як архіватор. 
Ефективність стиснення є найважливішою характеристикою архіваторів. Від неї зале- 
жить розмір створюваних архівів. Чим менше архів, тим менше місця потрібно для його 
збереження. Для передачі потрібна менша пропускна здатність каналу передачі або затра- 
чується менший час. Переваги архівів очевидні, якщо врахувати, що дані зменшуються 
в розмірі й у 2 рази, ів 5 разів. 

Стиснення даних використовується дуже широко. Можна сказати, майже скрізь. 
Наприклад, документи РРЕ, як правило, містять стиснуту інформацію. Досить багато 
виконуваних файлів ЕХЕ стиснуті спеціальними пакувальниками. Різні мультиме- 
дійні файли (СТЕ, РОС, МР3, МРС) є своєрідними архівами. 

Основним недоліком архівів є неможливість прямого доступу до даних. Їх спо- 
чатку необхідно витягти з архіву або розпакувати. Операція розпакування, утім, як 1 
упакування, вимагає деяких системних ресурсів. Це не миттєва операція. Тому архіви 
в основному застосовують з порівняно рідко використовуваними даними. Наприклад, 
для збереження резервних копій або інсталяційних файлів. 

У найпростішому випадку архіватор дозволяє тільки упакувати або розпакувати 
один файл. Крім власне стиснення даних, сучасні архіватори забезпечують деякі 
додаткові функції. Можна виділити декілька основних: 

-- стиснення деяких файлів і цілих директорій; 

- створення архівів, що саморозпаковуються (5ЕХ.). Тобто для розпакування архіву 
програму-архіватор не потрібно; 

- зміна вмісту архіву; 

- шифрування вмісту архіву; 

- інформація для відновлення архіву при частковому ушкодженні і можливість від- 
новлення ушкоджених архівів; 

- розбиття архіву на декілька частин або томів; 

-- консольна версія програми для роботи з командного рядка; 

- графічна (СТ.Л) версія програми. 

Слід зазначити, що дані після «стиснення» архіваторами набувають специфіч- 
ного значення, яке «розуміє» тільки сам архіватор, особливо якщо метод стиснення 
унікальний. Інші програми таких даних використовувати не можуть. 
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Стиснення буває без втрат (коли можливо відновлення вихідних даних без спо- 
творень) або з втратами (відновлення можливе з незначними спотвореннями). Стиснення 
без втрат використовується при обробці та збереженні комп'ютерних програм 1 
даних. Стиснення з втратами зазвичай застосовується для зменшення об'єму звукової, 
фото- та відеоінформації. І, як показує практика, стиснення з втратами для такого 
роду інформації є набагато вигіднішим. 

Стиснення текстових даних базується на усуненні надлишку інформації, яка 
міститься у вихідних даних. Прикладом надлишку є повторення в тексті фрагментів 
(наприклад, слів природної або машинної мови). Подібний надлишок зазвичай усу- 
вається заміною повторюваних послідовностей більш коротким значенням (кодом). 
Інший вид збитковості пов'язаний з тим, що деякі значення в даних, що стискаються, 
зустрічаються частіше інших, при цьому можна замінювати дані, що часто зустрічаються, 
більш короткими кодами, а ті, що рідко, більш довгими (імовірнісне стиснення). Стис- 
нення даних, які не мають властивості надлишку (наприклад, випадковий сигнал чи 
шум), неможливе. Так само зазвичай неможливо стиснути зашифровану інформацію ||. 


1. Метод одномірного кодування текстових даних 
в базисі Галуа 


Коди Галуа утворюються згідно з наступною формулою: 


Сн 7 бі Ф Ол: 
Приклад коду Галуа з об'ємом коду У - М. 
1 2 3 4 5 6 М 8 
0 0 0 1 0 1 1 1 


Використання восьмибітового слова дає змогу закодувати 29 - 256 знаків, тоді як 
реальні алфавіти з урахуванням цифр і деяких допоміжних символів містять до 50 -- 
60 знаків, тобто для кодування їх потрібні п'яти-шестибітові комбінації та аналогічні 
структури пам'яті. 

Спробуємо зменшити кількість біт, необхідних для кодування одного символу, 
поділивши всі символи на чотири групи, що показані в табл. 1. 


Таблиця 1 - Кодова таблиця Галуа з поділом на групи 
111111 11110101 111101110101110Г0Г0:0(1110(|110|111111011111010|0Ц|1 


х|і|ьЬ|е|5|1|п|4|о|г|а|тір|Ї|у|с|и|ь|) | Є| є|м|КІу|41|2 


ін|к|(а|й|муо|в| ||р|н|я| с|т| у |е|д|о|ц|л|г|шщ(з|х|п|ь|ч|и 


с|фіщіую|б|ж|ь|м|3|є|1|8|ч|01:1|2131415161718|91ч| -|- 


,Г;Г:Г2Г1ТеРрюоіжОСГуГАТО Ге Пе 8 ГАГа ГП 1ТАГ/Т4ТЬТЄУЙТ П 


Суть методу полягає в наступному. Замість кожного символу тексту записуються 
відповідні 5 біт коду з таблиці. Якщо наступний символ тексту відповідає наступному 
символу кодової таблиці, то записується тільки | біт, в іншому випадку - інверто- 
ваний біт Галуа 1 5 біт, що відповідають заданому символу. 

Останні три біти послідовності Галуа визначають номер групи, в якій знахо- 
диться заданий символ: 00011 - друга група; 00111 - третя група; 01111 - четверта 


група. 
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Якщо ми знаходимось у певній групі, а хочемо закодувати символ латинського 
алфавіту, потрібно ще раз вказати код заданої групи. Для кодування великої літери 
будемо використовувати послідовність 00000. 

Спробуємо даний метод для кодування символів з різних груп. Так, слово У/тпдом/893 
буде зашифровано наступним чином: 


пі4 


о З му 5| 5 З Ш група 


00000 01110 о ровами ооо ОРІОДОу ЛОНІ 00111 еРкОцІв рано 


7 З і 


а 


Дане слово займає 72 біт пам'яті. Після упаковки його за допомогою 5-бітової 
послідовності Галуа воно займатиме 48 біт. Отже, Ке - 1,5. 
Коефіцієнт стиснення даних буде розраховуватися за формулою: 


8-п 


Кес 5 
(бос ун й РУК АН) 


(1) 


де п - кількість символів в файлі, що кодується, п, - кількість великих символів, п, - 
кількість переходів з однієї групи кодової таблиці Галуа в іншу, де п, - Кількість 
символів, які в таблиці Галуа знаходяться поруч (21. 


2. Стиснення графічних зображень 


Комп'ютерна графіка традиційно поділяється на два види: векторну та растрову. 
Векторне зображення складається з набору відрізків, багатокутників, кривих, що задані 
в деякій системі координат і описані математично. З векторними даними пов'язана 
інформація про їхні атрибути (наприклад, колір, товщина, тощо). Векторне зображення 
легко масштабувати, повертати, нахиляти. Тому воно не залежить від пристрою відоб- 
раження - чи то монітор з роздільною здатністю 72 арі, чи принтер з роздільною 
здатністю 600 Арі. Файли векторного формату корисні для збереження лінійних еле- 
ментів (наприклад, ліній та прямокутників), а також елементів, які можна розкласти 
на прості геометричні об'єкти (наприклад, текст). Растрове зображення - це масив 
цифрових значень, що визначають колір окремих пікселів. Кількість бітів на піксель 
визначає кількість кольорів, що можуть задаватися для цього пікселя. Файли цього 
типу добре підходять для збереження реальних зображень, наприклад, фотографій та 
відеозображень. Існує ще третій тип - метафайли - це файли, де міститься як век- 
торна частина зображення, так і растрова. 

Але зображення майже ніколи не записується у файл просто так. Як правило, 
воно кодується за деяким алгоритмом, крім того спочатку додається блок службової 
інформації (наприклад: ідентифікатор формату, версія формату, роздільна здатність 
по горизонталі, вертикалі, кількість бітів на колір, тип кодування, кількість площин, 
палітра, кількість пікселів на дюйм, тощо). Найчастіше графічні дані кодуються з ме- 
тою зменшення об'єму файла, але можлива й інша мета (наприклад, щоб: файли не 
могли продивитися сторонні люди, визначити, чи не спотворені дані (наприклад, за 
методом СЕС), тощо). Кодування бувають таких типів: упаковування пікселів, ВІЕ, 
ІДУ, Наїйтеп або ССІТТ, РСТ або ТРЕС, )ВІ), АЕТ, Егасіаї, або будь-якого, який 
ви самі можете придумати. 

За іншою класифікацією графічні файли поділяються на власні (що належать 
деякій графічній програмі) та обміну (що створені для обміну між декількома програ- 
мами). Майже кожна графічна програма має свій власний формат, а для обміну 
даними з іншими програмами використовує формати обміну. 
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Зрозуміло, що кожен формат був створений розробником з певною конкретною 
метою. Ми розглянемо декілька сфер застосування графічних файлів та формати, які 
доцільно використовувати в кожному випадку. 

В Інтернеті найпоширенішими форматами є СТЕ та /РЕС. Головним принципом, 
за яким створювалися ці формати, є мінімізація розміру файлу для передачі у мережі 
з низькою пропускною здатністю. СТЕ підтримує палітрові дані з максимальною 
кількістю кольорів 256 (без прозорості), анімацію, хоча остання модифікація може мати 
у кожному кадрі свою палітру і при використанні прозорих областей можна досягти 
більшої кількості кольорів. У випадку, коли у вихідному форматі було до 256 кольорів, 
перетворення на СТЕ відбудеться без втрат, а якщо ні, то потрібно виконати тону- 
вання або визначити кольори, що найчастіше використовуються, 1 подібні кольори 
перетворити в один, щоб загальна кількість кольорів не перевищувала 256. ТРЕС є у 
деякому плані альтернативою СТЕ, тому що підтримує 24 біти на колір, але аналогічно 
до СТЕ, зони з схожими кольорами перетворюються на один колір, причому навіть 
при низькому ступені стиснення втрати неминучі. Останнім часом був створений 
формат РХС, що на відміну від СІЕ підтримує повну гаму кольорів (до 458 біт) 1 
використовує алгоритм запаковки, схожий на І2МУ. Але він поки що не настільки 
поширений, як два попередніх. 

Серед векторних форматів для Інтернету слід назвати КІа5р та УКМІ., МЕМІ, - це 
формат тривимірних сцен, для перегляду яких потрібен додатковий модуль - УКМІ, 
ріце-ї (наприклад, Созто Ріауег). Цей формат підтримує декілька базових геомет- 
ричних фігур, різні типи освітлення, матеріалів, текстур, шрифтів. Кіа5П - це унікальний 
метафайловий формат, що підтримує анімацію, морфінг, градієнтну прозорість, шари, 
звук, реакцію на події від мишки чи клавіатури, тощо. Для його перегляду потрібен 
інший ріше-іп - 5росКууауе Кіа5ї, а для створення існує лише єдиний редактор - 
Масготедйа ЕазЮ, який є досить простим векторним редактором з підтримкою лінії 
часу (штеПпе), але можливостей якого досить для написання складних сторінок. 

Без сумніву, при роботі з конкретною програмою результат роботи варто зберігати 
у її рідному форматі, що підтримує, як правило, усі можливості та нюанси цієї про- 
грами. Але для обміну файлів (наприклад, з видавництвом) варто використати формати 
ТІКЕЕ для растрових даних та ЕР5 для векторних чи метафайлових. При цьому не 
будуть виникати проблеми з підтримкою цих форматів у іншій версії чи на іншій 
платформі. Формат ТІЕЕ має два варіанти: для РС та для Мас. Починаючи з версії 5.0 
(1988) він підтримує запаковку І./ЛУ, а з 6.0 (1992) - 7РЕС. На сьогодні це один з 
найуніверсальніших форматів, що підтримує кольори від І до 24 бітів, стиснення за 
методами ВІ.Е, І.2/ЛУ, ССІТТ 3, ССІТТ 4, ТРЕС, без стиснення, декілька зображень у 
одному файлі, альфа-канали. Формат ЕР5 є також дуже універсальним - він підтримує 
запис даних у текстовому та двійковому форматі, зображення у монохромному, напів- 
тоновому та кольоровому режимі, РС5, роздільну здатність від 75 до 3000 рі, 
мініатюри (ргеуіеуу) та шляхи обрізки (сПпрріпе рай). 

У електронних презентаціях немає якого-небудь стандартного формату графічних 
файлів, кожен виробник підтримує формати, які він вважає за потрібне. Багато з вироб- 
ників створюють свої формати. Більшість програми створення електронних презентацій 
(наприклад, Місго5ой РоухуегРоїпі, Гоїи5 Зпагі Зийе, Соге! Ргезепіайіоп, Азіоцпа) 
підтримують декілька (до 20) різних графічних форматів |З. 


3. Метод двомірного кодування зображень в базисі Галуа 


Розглянемо можливість застосування кодів Галуа для стиснення двовимірних 
об'єктів, а саме зображень. Для цього представимо графічне зображення у вигляді 
сітки (рис. 1), кожна комірка якої відповідає певному біту послідовності Галуа. 
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» 


С 
Рисунок 1 - Приклад сітки за послідовністю Галуа 


1 111 0 01 0 1 1 0 0 1 1 1 


Таким чином ми отримаємо матрицю, що відповідає заданій сітці: 


Для кодування рисунка можна скористатися кодовою таблицею (табл. 1). Тільки в 
даному випадку ми будемо замість тексту використовувати кольори. Нехай перший рядок 
таблиці буде відповідати червоному кольору, другий - зеленому, а третій - синьому. 

Починати кодування будемо з вказання біта Галуа, що відповідає першому 
рядочку і першому стовпчику. Якщо в заданому місці колір відсутній, то перший біт 
інвертуємо. В іншому випадку записуємо по п'ять бітів з таблиці, що відповідають 
червоному, зеленому та синьому кольорам і переходимо до наступної комірки. Якщо 
наступний колір повністю співпадає з попереднім, то біт, який відповідає номеру 
стовпчика, інвертуємо. Інакше - переходимо до кодової таблиці. Порівнюємо кожен 
колір з попереднім, при їх співпадінні інвертуємо наступний біт, в іншому випадку 
записуємо біти, що відповідають кольору. При переході на наступний рядок 
інвертуємо останні біти, що відповідають номеру рядочка та стовпчика. 

Розглянемо наступний приклад. Нехай заданий рисунок з наступними коорди- 
натами кольорів (табл. 2). 


Таблиця 2 - Координати кольорів 
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Після кодування його за допомогою бітів Галуа отримаємо (табл. 3): 


Таблиця 3 - Кодування рисунка послідовністю Галуа 


01 о 01 00 01 
птососо со бСссС 00 посссс! с | с |оріо 
от птососб СоССб ССООС ДЕ Го ДЕ СЛ 0100 
от птосбсєо |ссоссо |ссосо | пСсособесссроссаоссовсо | ссссс |соссо | 1000 
ої писсссо осссс оСССС 01 ібсссс с (сСоссІ0100 


Де С - біт послідовності Галуа, що відповідає заданому символу, а С - інвер- 
тований біт Галуа. 

Відсутність кольору або його повторення кодується двома бітами, нові кольори -- 
17 бітами. При збереженні одного кольору 1 зміні іншого, не змінений колір буде по- 
значатися одним бітом. 

Отже, як видно з табл. 2, початковий рисунок має розмір 600 біт, після кодування 
його за допомогою послідовності Галуа його розмір становитиме 162 біти. Таким чином, 
розмір рисунку буде зменшено в 3,7 раз. Якщо кольори кодувати 8-бітовими послідов- 
ностями, то розмір складатиме 182 біти, а коефіцієнт стиснення становитиме 2,7. 


Висновки 


У роботі описаний метод стиснення алфавітно-цифрових даних за допомогою 
5-бітової послідовності Галуа. Наведено формулу розрахунку коефіцієнта стиснення, 
що залежить від кількості великих символів, кількості переходів з однієї групи кодової 
таблиці Галуа в іншу та кількості символів, які в таблиці Галуа знаходяться поруч. 

Представлені методи стиснення графічних даних. Проведено модифікацію реку- 
рентного методу стиснення текстових даних із застосуванням його для графічних файлів. 

Як видно з прикладів, даний метод є більш ефективний для одноалфавітних 
текстових даних з мінімальною кількістю великих літер та максимальною кількістю 
символів, розташованих поруч в кодовій таблиці. А також для графічних файлів, що 
мають великі області однакового або білого кольору. 
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Архиваторь знаний об одномерньгх и двумерньтх обьектах диагностирования 

В данной статье предложеньт методьт сжатия одномерньх (текстовьтх) и двухмерньгх (графичньтх) данньтх 
на основе базиса Галуа, которьт позволяют в некоторой степени уменьшить обьем информации, которая 
сохраняєтся, обрабатьтваєтся или передаєтся, минимизировать потерю информации при восстановлений. 
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